(二)RNN 的 反向传播算法详细推导 | 您所在的位置:网站首页 › 反向传播 公式 › (二)RNN 的 反向传播算法详细推导 |
在 反向传播算法理解 一文中,大体讲了反向传播算法的大体思想和优势,这篇文章拿最简单的RNN网络推导反向传播算法。 计算图和计算公式我们拿最具代表性的如下RNN网络图简单推导。 上图是一张计算图。为方便公式推导,我们把公式写出来。对于每一步 t ,都是如下的计算过程。 每一步的损失函数 在每一步 t 中, 每一步的 其中:参数矩阵变量是 W、V、U。截距变量是 b 、c。 反向传播算法推导有了上边的基础,我们就可以开始推导啦,在推导之前,我们先熟悉下涉及到的 tanh函数。 tanh函数: tanh函数的导数: 下面开始从后往前推导: 1、首先最终的loss L 对每一步 t 中的 2、接下来求 L 对每一步 t 中 3、接下来求L对 在最后一步 T ,在计算出 L 对 由式10.10可以推出L 对 V 的梯度:这个写的有点歪,将就着看看吧~ 由式10.10可以推出L 对 c 的梯度: 4、计算出 L对 由式10.8 和式10.9 和 tanh 函数导数 可以推出L 对 U 的梯度: 计算L对W 的梯度 与L对U 的梯度的计算完全是一样的,只需要把 计算L对 b 的梯度与计算 L对U 的梯度 基本一致,只是少了最后一项,如下: 5、算完 L 对最后一步 T 中变量的梯度之后,我们就该往前走,计算 L 对中间每一步中变量的梯度。因为中间每一步的计算过程都是一样的,我们用 t 就代表中间的每一步。 我们可先计算每步 t 中 L 对 这里的 6、求完 L 对 7、由于在RNN中,每一步 t 中的 RNN的反向传播推导就讲到这里啦,欢迎各位大佬评论区留言~ |
CopyRight 2018-2019 实验室设备网 版权所有 |